Validation statistique des cartes de Kohonen en apprentissage supervisé

نویسندگان

  • Elie Prudhomme
  • Stéphane Lallich
چکیده

Résumé. En apprentissage supervisé, la prédiction de la classe est le but ultime. Plus largement, on attend d'une bonne méthodologie d'apprentissage qu'elle permette une représentation des données susceptible de faciliter la navigation de l'utilisateur dans la base d'exemples et d'aider au choix des exemples et des variables pertinents tout en assurant une prédiction de qualité dont on comprenne les ressorts. Di érents travaux ont montré l'aptitude des graphes de voisinage issus des prédicteurs à fonder une telle méthodologie, ainsi le graphe des voisins relatifs de Toussaint. Cependant, la complexité de leur construction, en O(n3), reste élevée. Dans le cas de données volumineuses, nous proposons de substituer aux graphes de voisinage les cartes de Kohonen construites sur les prédicteurs. Après un bref rappel du principe des cartes de Kohonen en apprentissage non supervisé, nous montrons comment celles-ci peuvent fonder une stratégie d'apprentissage optimisée. Nous proposons ensuite d'évaluer la qualité de cette stratégie par une statistique originale qui est étroitement corrélée au taux d'erreur en généralisation. Di érentes expérimentations montrent la faisabilité de cette approche. On dispose alors d'un critère able pour sélectionner les individus et les attributs pertinents. Mots-clefs : apprentissage supervisé, cartes de Kohonen, validation statistique

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Sous-échantillonnage topographique par apprentissage semi-supervisé

Résumé. Plusieurs aspects pourraient influencer les systèmes d’apprentissage existants. Un de ces aspects est lié au déséquilibre des classes dans lequel le nombre d’observations appartenant à une classe, dépasse fortement celui des observations dans les autres classes. Dans ce type de cas assez fréquent, le système d’apprentissage a des difficultés au cours de la phase d’entraînement liées au ...

متن کامل

Pondération locale des variables en apprentissage numérique non-supervisé

Résumé. Dans cet article, nous proposons une nouvelle approche de pondérations des variables durant un processus d’apprentissage non supervisé. Cette méthode se base sur l’algorithme « batch » des cartes auto-organisatrices. L’estimation des coefficients de pondération se fait en parallèle avec la classification automatique. Ces pondérations sont locales et associées à chaque référent de la car...

متن کامل

Modélisation de tables de contingence par arbres d'induction

RÉSUMÉ. Cet article est consacré à l’évaluation statistique des descriptions de tables de contingence fournies par les arbres d’induction. On se limite au cas particulier de données catégorielles. Trois aspects sont successivement abordés. i) La nature de l’ajustement en apprentissage supervisé, où l’on souligne la distinction entre prédiction de valeurs individuelles et prédiction de leur repr...

متن کامل

A robust method for partitioning the values of categorical attributes

Résumé. Dans le domaine de l’apprentissage supervisé, les méthodes de groupage des modalités d’un attribut symbolique permettent de construire un nouvel attribut synthétique conservant au maximum la valeur informationnelle de l’attribut initial et diminuant le nombre de modalités. Nous proposons ici une généralisation de l’algorithme de discrétisation Khiops pour le problème du groupage des mod...

متن کامل

Visualisation de données textuelles et inférence statistique

Les principaux outils de visualisation de données multidimensionnelles sont d’une part les analyses en axes principaux, qui portent des noms divers mais qui sont presque toutes fondées sur la décomposition aux valeurs singulières, et d’autre part les méthodes de classification, incluant les cartes auto-organisées de Kohonen. Ces deux familles d’outils sont d’ailleurs complémentaires, et leur us...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2005